Del aislamiento al enredo: ¿Separación de conceptos en interpretabilidad?
Los métodos de interpretabilidad (SAEs, sondas) buscan separar conceptos, pero manipular características afecta múltiples conceptos, desafiando la independencia
Los métodos de interpretabilidad (SAEs, sondas) buscan separar conceptos, pero manipular características afecta múltiples conceptos, desafiando la independencia
El método TS-LFO elude defensas de copyright en modelos de difusión con optimización latente en dos etapas, superando a DiffPure, GrIDPure e IMPRESS.
Nuevo método no supervisado identifica modos de continuación en LLMs alineando semántica y atribuciones mecanicistas para auditar mecanismos internos.